tg-me.com/data_analysis_ml/3559
Last Update:
🩺 HealthBench — новый бенчмарк от OpenAI для оценки ИИ в медицине
OpenAI представила HealthBench — масштабный бенчмарк, разработанный для оценки возможностей языковых моделей в медицинских сценариях. Он создан в сотрудничестве с 262 врачами из 60 стран и включает 5 000 реалистичных медицинских диалогов.
🔍 Основные особенности HealthBench:
- Реалистичные кейсы: Диалоги отражают реальные взаимодействия между пациентами и врачами, охватывая различные медицинские специальности и контексты.
- Многоязычность: Бенчмарк поддерживает несколько языков, что позволяет оценивать модели в глобальном масштабе.
- Оценка по рубрикам: Каждый ответ модели оценивается по набору критериев, разработанных врачами, с учетом полноты, точности и уместности.
Открытый доступ: Код и данные доступны на GitHub, что способствует прозрачности и сотрудничеству в исследовательском сообществе.
HealthBench устанавливает новый стандарт для оценки ИИ в здравоохранении, обеспечивая более надежные и безопасные инструменты для пациентов и врачей.
🔗 Подробнее: https://openai.com/index/healthbench/
BY Анализ данных (Data analysis)

Share with your friend now:
tg-me.com/data_analysis_ml/3559